查看原文
其他

异质性分析是什么?如何做?有哪些方式去做呢?

因果推断研究小组 计量经济圈 2023-01-25

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

最近,我们引荐了关于各种因果识别方法的120份经典实证文献汇总”,哈佛大学新修订完成的因果推断经典大作免费下载!附数据和code,因果推断的统计方法总结, 177份文献政策评估的计量方法综述, 包括最新因果推断方法在教育领域使用IV, RDD, DID, PSM多吗? 使用具体文献,看完顶级期刊文章后, 整理了内生性处理小册子工具变量精辟解释, 保证你一辈子都忘不了DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征关于双重差分法DID的32篇精选Articles专辑!关于(模糊)断点回归设计的100篇精选Articles专辑!匹配方法(matching)操作指南, 值得收藏的16篇文章等,MIT广为流传的政策"处理效应"读本DID的研究动态和政策评估中应用的文献综述最新政策效应评估的四种方法政策效应评估的基本问题等,在学术同行间引起巨大反响。
上一日,咱们引荐了应用计量经济学现状: 因果推断与政策评估最全综述前沿: 机器学习在金融和能源经济领域的应用分类总结,在学者间引起了很大的反响。

正文

整理组织此文by@因果推断研究小组

异质性(heterogeneity )分析,以教育收益率为例

教育收益率(the rate of retun to education)也称教育回报率,是教育经济学和劳动经济学研究的重要问题之一,自20世纪60年代人力资本理论创立以来,相关理论和经验研究可谓难以胜数。在估算教育收益率的若干方法中,明瑟收益率是最常用的一种,其估算过程采用明瑟收入方程:

其中,lnW是工资收入的自然对数;S为个人的受教育年限;EXP是个人的工作 一经验,一般用个人的年龄减去受教育年限再减去开始接受教育耐的年龄得到其 数值;EXP2是个人工作经验的平方;u为随机误差项。当然,还可以加入性别、 职业、工作地点等一系列控制变量:

其中,表示其他控制变量,表示这些变量对应的系数。这样,在式(1)和式(2)中,回归系数。的估计值可近似地表示在其他条件相同的情况下,每增加一年教育导致的个人收入增加的百分比,称为教育的明瑟收益率。本文中的教育收益率指的就是明瑟收益率。
明瑟收入方程在经验研究中的应用非常广泛,以至于贝克尔在他的诺贝尔经济学奖演讲词中宣称:“明瑟收入方程可能是微观经济学中最为常用的根据经验得出的回归方程”。在用明瑟收入方程估算教育收益率的过程中,最简单的方法是采用普通最小二乘(ordinary least square,OLS)估计,但这会遇到不少计量经济学方面的问题,使得教育收益率的OLS估计值是有偏的(biased)甚至是非一致的(inconsistent)。本部分将讨论其中的异质性问题,在今天推文的第二篇文章中讨论其他三个问题。

异质性(heterogeneity )

异质性是指教育对于不同人群的收入的影响是不同的,从而不同人群的教育收益率存在差异。此时,如果简单地用式(1)或式(2)估算教育收益率,可能 得到有偏误的结果。解决教育收益率异质性问题的最简单办法,是根据研究问 题的需要,把样本分成各个子样本,然后分别使用OLS方法估计教育收益率。 譬如根据性别、年龄、省份、单位所有制性质等把样本分为若干子样本分别估算 教育收益率。当然,也可以不进行分组,而是在基于总样本的回归中加入受教 育年限与上述分组变量的交互项作为解释变量,分析不同组别的教育收益率差异。比较特殊的情况是,不同学历的教育收益率可能不同,此时无法通过分组 的方法估算不同学历的教育收益率,因为组内个体的受教育年限为常数,无法 进行回归。在这种情况下,一般的处理办法是构造不同学历(如高中、大专、大 本、研究生及以上)的虚拟变量,用这些虚拟变量替代式(1)或式(2)中的受教 育年限,然后利用虚拟变量的回归系数与各学历水平之间受教育年限的差异得 到不同学历的教育收益率。
葛玉好指出,对于不同性质的人群,教育影响工资收入的函数形式是未知的,因此提出运用部分线性模型(partially linear model)来估计教育收益率。部分线性模型方法是一种非参数估计的方法,允许所估计的系数随样本点的变动而变动,可以估计出每个个体的教育收益率,然后按照一定的特征求其平均值,就得到了每类人群的教育板益率(譬如根据性别分别计算男性个体和女性个体的教育收益率的平均值)。葛玉好采用的部分线性模型如式(8)所示,其中 g(•)表示受教育年限和工作经验对工资收入的影响,是未知函数,X,为部门虚拟变量和省份虚拟变量。根据2000年我国城镇住户调査数据,他估算了不同性别、年龄、工作部门和学历人群的教育收益率,结果表明通过部分线性模型得到教育收益率估计值与通过分组之后进行0LS回归得到的教育收益率估计值 存在一定差异,而且模型设定检验拒绝了线性模型的假设。此外,王明进和陈良焜用部分线形回归模型对明瑟收入方程中工作经验对收入的影响进行了分析,发现工作经验的二次曲线并不能正确地表达工作经验对收入的影响,特别是对工作经验较长的样本。但是,工作经验进入明瑟收入方程的函数形式如何设置对教育收益率的估计值几乎没有影响。

如果教育收益率在工作单位和地区之间曲异质性是研究关注的主题,那么可以采用多层模型(multilevel model)的方法。即把样本数据视为分层数据,如劳动者个体为第一层,劳动者个体所在的工作单位第二层,构成一个两层模型。显然,可以假定在同一个单位之内,教育收益率是相同的,而在不同单位,教育收益率是不同的。这样就以劳动者个体为第一层次,以劳动者所在的工作单位为第二层次建立了两层模型:

此。多层分析方法提供了估计上述模型的系数及方差的方法,以较为常用的分 层线性模型(Hierarchical Linear Model, HLM)为例,它采用收缩估计(shrinkage estimation)和广义最小二乘法(GLS)估计模型的系数,并采用受限的极大似然 法(MLR)或贝叶斯方法(Bayesian methods)估计方差成分和协方差成分。
在式(10)中,教育收益率在不同单位之间的差异是随机的。如果引入一些表明单位特征的解释变量,则可以估计单位性质对教育收益率的影响。譬如,假定在不同规模的单位里,教育收益率会有所不同,引入解释变量SIZE(譬如用在职职工总数表示)。则式(10)中的估计方程为:

如果的估计值显著地大于0,表明在规模越大的单位里教育收益率越高。当然,还可以在式(11)中引入其他解释变量,如单位所在的行业、所有制性质,等等。同时,对于工作经验的系数,也可以引入单位层面的解释变量。此外,如果想要考察不同地区之间的教育收益率差异,还可建立三层模型, 即个体为第一层,单位为第二层,单位所在的省份为第三层,其估计方法与两层模型完全相同。
纳德瑞(Naderi)和梅斯(Mace)用两层模型分析了伊朗制造业的教育收益 率。他们用一个企业的职工平均受教育年限与平均工龄之和度量该企业的平均人力资本存量,发现平均人力资本存量越高的企业,其职工的教育收益率越高,也就是说,人力资本投资存在溢出效应。在针对我国的研究中,王海港等根据1995年和2002年的城镇住户抽样调査数据,以个体为第一层次,省内各城市为第二层次,各省为第三层次,利用HLM模型分析了教育收益率的地区差 异。他们发现教育收益率在各省之间的差异是不显著的,但在省内各城市之间的差异却是显著。为此他们用职工”通过劳动力市场谋职的比例”和“国有工业占全部工业总产值的比重”衡量一个城市的劳动力市场化程度,发现劳动力市场化程度越高的地区教育收益率越高。刘泽云和萧今则以职工个体在不同年份的变化为第一层次,以职工个体为第二层次,以职工所在的企业为第三层次,建立了三水平增长模型(three-level growth model)。他们利用1993、1995、1998年的企业调査数据,发现在东部和中部地区,教育水平越高的职工工资增长得越快,西部地区则不然;同时,与其他所有制性质的企业相比,在外资企业里,教育水平较高的职工工资增长得更快一些。
还用一种常见的异质性:对于处于收入条件分布的不同位置的人群,教育收益率是不一样的。处理这一问题的方法是采用分位回归(quantile regression, QR),分位回归估计的是教育对于处于收入条件分布的不同分位点的人群的影响。例如,10分位的教育收益率表示,提高一年教育对处于收入条件分布10分位的人群的收入的影响。而通过OLS估计得到的教育收益率是指提高一年教育对于收入的条件均值的影响。
分位回归方法目前在教育收益率研究中应用较多。例如,Martins和Pereira根据美国和15个欧洲国家20世纪90年代中期的数据,运用分位回归的方法发现工资条件分布的高收入人群的教育收益率高于低收入人群。张车伟针对2004年上海、浙江和福建的调査数据的分析表明在收入条件分布的高分位点上的教育收益率更高;与之相反,罗楚亮根据2002年城镇住户调査数据,发现在收入条件分布较高的分位点上,教育收益率相对较低。马晓强和丁小浩还以90分位数的教育收益率与10分位数的教育收益率的差值的绝对值作为对教育投资风险的度量,利用1991、1995和2000年国家统计局的城镇居民入户调査数据,发现教育收益率的OLS估计值呈上升趋势,而教育投资风险也呈上升趋势。
注意:今天推荐的第二篇文章虽然在讨论遗漏变量、测量误差、选择偏差,但我们希望各位多关注基于双胞胎样本(twins sample)解决遗漏变量和测量误差问题,以及基于局部工具变量(LIV)法解决选择偏差。欲知详情,请参看今天推文第二篇文章里的内容。
Source: 刘泽云.教育收益率估算中的几个方法问题[J].北京大学教育评论,2009,7(01):139-150+192.
关于一些计量方法的合辑,各位学者可以参看如下文章:实证研究中用到的200篇文章, 社科学者常备toolkit”、实证文章写作常用到的50篇名家经验帖, 学者必读系列过去10年AER上关于中国主题的Articles专辑AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向2020年中文Top期刊重点选题方向, 写论文就写这些。后面,咱们又引荐了使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑!这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授Python, Stata, R软件史上最全快捷键合辑!关于(模糊)断点回归设计的100篇精选Articles专辑!关于双重差分法DID的32篇精选Articles专辑!关于合成控制法SCM的33篇精选Articles专辑!最近80篇关于中国国际贸易领域papers合辑!最近70篇关于中国环境生态的经济学papers合辑!使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑!最近50篇使用系统GMM开展实证研究的papers合辑!
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存